Summary

1-Line

"This paper investigates fully test-time adaptation for object detection. It means to update a trained object detector on a single testing image before making a prediction, without access to the training data."

소스/타겟 데이터셋 없이 단일 테스트 이미지에서 객체 감지 모델을 적응시키는 완전 테스트 타임 도메인 적응 방법 제안 [Page 1, Abstract]

3-Line

객체 감지 모델이 도메인 변화에 취약한 문제를 해결하기 위한 새로운 테스트 타임 적응 프레임워크 제안 [Page 1, Section 1]
Self-training 기반 베이스라인에서 도메인 변화로 인한 pseudo label의 품질 저하 문제 발견 [Page 3, Section 3.2.2]
IoU 기반의 두 가지 지표로 pseudo label의 품질을 향상시켜 도메인 적응 성능 개선 [Page 4, Section 3.3]

5-Line

실제 응용에서는 타겟 도메인이 이미지마다 다르고 알 수 없어, 기존 도메인 적응 방법들의 한계 존재 [Page 2, Section 1]
단일 테스트 이미지에서 반복적으로 모델을 업데이트하는 self-training 베이스라인 제안 [Page 3, Section 3.2.1]
도메인 변화로 인한 낮은 품질의 pseudo label 문제를 진단적 연구를 통해 발견 [Page 3-4, Section 3.2.2]
IoU-CI와 IoU-OD 두 지표로 구성된 IoU Filter로 pseudo label 품질 향상 [Page 4-5, Section 3.3]
5개 데이터셋 실험에서 기존 방법 대비 우수한 성능 입증 [Page 5-7, Section 4]

Paper Review

Abstract / Motivation

"The real world is complex and non-stationary, which is unlikely to be covered by any fixed dataset. The detector must adapt itself on the fly to the unknown and varying domain shift at test time."

  1. 문제 정의:
  • 객체 감지 모델이 학습-테스트 데이터 간 도메인 차이에 취약 [Page 1, Abstract]
  • 기존 도메인 적응 방법들은 타겟 도메인 데이터셋이 필요한 한계 존재 [Page 1, Introduction]
  1. 제안 동기:
  • 실제 환경은 복잡하고 비정적이어서 고정된 타겟 데이터셋으로 커버 불가능 [Page 2, Section 1]
  • 이미지마다 다른 도메인에 실시간으로 적응할 수 있는 방법 필요 [Page 2, Section 1]

Background

도메인 적응 관련 선행 연구

  1. Unsupervised Domain Adaptation (UDA):
  • labeled 소스 데이터와 unlabeled 타겟 데이터 모두 필요 [Page 1, Introduction]
  • 프라이버시 등의 이유로 소스 데이터 사용이 제한적인 문제 [Page 1, Introduction]
  1. Source-free Domain Adaptation (SFDA):
  • 소스 데이터 없이 타겟 도메인 적응 가능 [Page 1, Introduction]
  • 여전히 고정된 타겟 도메인과 데이터셋 필요 [Page 2, Section 1]
  1. Test-time Adaptation:
  • 단일 테스트 샘플에 대해 모델 업데이트 [Page 2, Section 2.1]
  • 대부분 이미지 분류 태스크에 국한됨 [Page 2, Section 2.1]

Targeting Problems

  1. 주요 문제점:
  • 1-1. 도메인 변화에 취약한 객체 감지 모델 [Page 1, Introduction]

    "Though deep learning approaches have drastically pushed forward the state-of-the-art object detection performance on standard benchmarks, current object detectors are often vulnerable to domain shifts between the training data and testing images, e.g., unseen styles, weather, lighting conditions, and noise."

  • 1-2. 타겟 도메인 데이터셋 없이 적응해야 하는 제약 [Page 2, Section 1]

    "Both UDA and SFDA assume that the target domain is known and fixed and that a target dataset sampled from this domain is available for training. However, the real world is complex and non-stationary, which is unlikely to be covered by any fixed dataset."

  • 1-3. Self-training에서 도메인 차이로 인한 pseudo label 품질 저하 [Page 3, Section 3.2.2]

    "We have two observations.

    First, the baseline consistently improves the performance of the original detector. This demonstrates the potential of the self-training framework in our task.

    Second, in most scenarios, using detection confidence to select pseudo labels leads to similar performance as using all detections as pseudo labels. Meanwhile, Fig. 2 shows that the pseudo labels are noisy even at a high confidence threshold."

  1. 기술적 과제:
  • 2-1. 단일 이미지로부터 효과적인 도메인 적응 방법 설계 [Page 2, Section 1]

    "It will facilitate many applications, e.g., image understanding systems for social media and visually impaired people, where the target domain differs from image to image, hence adaptation can be learned only from one sample."

  • 2-2. Pseudo label의 품질 향상 방안 [Page 4, Section 3.3]

    "Through a diagnostic study of a baseline self-training framework, we show that a great challenge of this task is the unreliability of pseudo labels caused by domain shift. We propose a simple yet effective method, i.e., IoU Filter, to address this challenge."

  • 2-3. 반복적 업데이트 과정에서의 안정성 확보 [Page 7, Section 4.3.3]

    "It delineates that all these methods improve at the first 5 or 6 iterations, but degrade in more iterations and would continue this trend in the future. This could be attributed to two reasons.

    First, as there is only one testing image to perform adaptation, too many iterations could lead to overfitting.

    Second, detection errors could accumulate in the pseudo labels and adversely affect the test-time training."

Suggestions / Methods

  1. Self-training 베이스라인 [Page 3, Section 3.2.1]

"It is an iterative algorithm. At the i-th iteration, the current detector makes a prediction on I, where we then collect confident detections as pseudo labels.

The Current detector θt−1 makes a prediction Dt = {(bt,i, pt,i) : ∀i} on I, where bt,i is the bounding box of the ith object instance and pt,i ∈ [0, 1]K is the probability distribution of the K classes."

  • 현재 모델로 테스트 이미지에서 예측 수행
  • Confidence threshold로 pseudo label 선택
  • Pseudo label로 모델 파라미터 업데이트
  • 반복적으로 위 과정 수행
1. 반복적 예측 및 학습 과정

- t번째 iteration에서 현재 detector θt-1로 예측 수행
- 예측 결과 Dt = {(bt,i, pt,i)}로 표현
    - bt,i: i번째 객체의 bounding box
    - pt,i: K개 클래스에 대한 확률 분포

2. Pseudo Label 생성

- Confidence threshold λconf 기준으로 필터링
- Pt = {(bt,i, yt,i) : ct,i > λconf}
    - ct,i: detection confidence
    - yt,i: 예측된 객체 클래스

3. 모델 업데이트

- Gradient descent로 현재 모델 θt-1 업데이트
- Pseudo label을 학습에 활용하여 θt 생성
  1. IoU Filter 방법론 [Page 4-5, Section 3.3]

"The IoU Filter consists of two new IoU-based indicators that are complementary to the detection confidence... Our statistical results indicate that both indicators increase the percentage of correct pseudo labels."

  • Methods

    A. IoU between Consecutive Iterations (IoU-CI):

    "For every object instance in Dt, we match it to an instance in Dt−1 with the same class and minimum IoU... The IoU-CI score of an instance in Dt is defined as the IoU between itself and its matched instance in Dt−1."
    
    • 연속된 iteration 간의 예측 일관성 측정 [Page 4, Section 3.3.1]
    • 높은 IoU-CI 값을 가진 예측을 신뢰할 수 있는 pseudo label로 선택 [Page 4, Section 3.3.1]
    1. 작동 원리
    • 연속된 iteration의 예측 결과 매칭
    • 같은 클래스이면서 IoU가 가장 높은 쌍 찾기
    • 매칭된 쌍의 IoU 값을 신뢰도 지표로 사용
    1. 필터링 방법
    • IoU-CI threshold λIoU-CI로 필터링
    • 높은 IoU-CI 값은 예측의 일관성을 의미
    • 매칭되지 않은 예측은 IoU-CI 값을 0으로 설정

    B. IoU between Overlapped Detections (IoU-OD):

    "If ci is the highest among them, instance i passes the IoU-OD filter, otherwise, it is excluded from the pseudo labels. The IoU-OD filter is like class-agnostic non-maximum suppression (NMS)."
    
    • 중복 탐지된 객체들 중 가장 높은 confidence 선택 [Page 5, Section 3.3.2]
    • 도메인 변화로 인한 분류 모호성 해결 [Page 5, Section 3.3.2]
    1. 문제 해결
    • 도메인 변화로 인한 중복 탐지 문제 해결
    • 같은 객체가 다른 클래스로 여러 번 탐지되는 현상 처리
    1. 필터링 절차
    • IoU-OD threshold λIoU-OD 이상 겹치는 탐지들 그룹화
    • 각 그룹에서 가장 높은 confidence를 가진 탐지만 선택
    • Class-agnostic NMS와 유사하게 작동
  1. 실험적 검증 [Page 5-7, Section 4]
  • 학습 설정 / 모델 구조

    • Backbone: ResNet50 (ImageNet pre-trained)
    • Region Proposal Network: 300개 top proposals
    • Anchors: 3 scales (128, 256, 512), 3 aspect ratios (1:1, 1:2, 2:1)
    • 학습 파라미터
      • Optimizer: SGD with momentum 0.9
      • Learning rate: 0.001
      • Batch size: 1
      • Iterations: 5회
    • 임계값 설정
      • Detection confidence threshold: 0.6
      • IoU-CI threshold: 0.6
      • IoU-OD threshold: 0.9
  • 5개 데이터셋에서 평가 (Clipart1k, Comic2k, Watercolor2k, Foggy Cityscapes, Rainy Cityscapes)

    "For all five testing datasets, the detection confidence threshold is set as 0.6, the IoU-CI threshold is set as 0.6, and the IoU-OD threshold is set as 0.9."

  • CoTTA 등 최신 방법들과 비교하여 우수한 성능 입증

  • Ablation study를 통해 각 컴포넌트의 효과 분석